The Open Fern Tree of Life:
常に最新の状態を保つ
全シダ植物系統樹に
向けて

Joel Nitta1, Eric Schuettpelz2, Santiago Ramírez-Barahona3, Wataru Iwasaki1

1: 東大・大学院・新領域, 2: Smithsonian Institution, 3: Universidad Nacional Autónoma de México https://joelnitta.github.io/shinka_2022

全生物の系統樹の構築:ダーウィン以来の大きな目的


Darwin (1837)


Hinchliff et al. (2015)

配列データの増加によって、現実的になりつつある


Gauthier et al. (2019)

(自動的なパイプラインを使えば)

Antonelli et al. (2016)

問題その1:性能とスケーラビリティのトレードオフ

  • どんな自動的なパイプラインでも、いくつかの前提単純化がある

  • 一方で、手動でシーケンスを全部確認すればより正確な系統樹が得られるはだが、データが大量にあると現実的ではない

問題その2:すぐに古くなってしまう

  • GenBankのデータの著しい増加によって系統樹がすぐに古くなってしまう

本研究の試み:自動化とカスタマイズを両方取り入れる

本研究の目的:シダ植物の最も種数の多い、分類学的に高性能な系統樹を自動的に作るシステムの開発

なぜシダ?

多様で、生態学的に重要な役割を果たしている植物

被子植物と比べて、調べやすい

  • シダ植物:約1万2千種、そのうち4-5割のシーケンスあり
  • 被子植物:約35万種、2割のシーケンスあり

方法

GenBankのデータマイニング

サンガー法データ

  • 7つの遺伝子
  • 約5,100種

次世代シーケンサーデータ

  • 79遺伝子
  • 約400種

種名の統一

query matched_name resolved_name
Anemia collina Sm. Anemia collina Sm. Anemia collina Raddi
Pteris flava Merr. Pteris flava Merr. Pteris linearis Poir.

… (合計:6,475列)

自動的な種の誤同定の排除

  • all-by-all BLAST (Camacho et al. 2009) をかける

  • クエリー(種)が異なる科と一致した場合、誤同定として排除する

species accession locus query family match family
Abacopteris_gymnopteridifrons JF303974 rbcL Thelypteridaceae Athyriaceae
Angiopteris_evecta AY344778 trnL-trnF Marattiaceae Ophioglossaceae

… (合計:70)

系統解析:バックボーン

系統解析:全体のツリー

  • MAFFTによってシーケンスをアライン

  • IQ-TREE (Nguyen et al. 2015)において葉緑体の系統樹を制約にして最尤法によって系統樹を推定する

  • treePL (Smith and O’Meara 2012)によって分岐年代推定を行う

結果

バックボーンが綺麗に
決まる

  • 分岐点の93%が100%支持

  • 議論のあった分岐点も綺麗に決まる

分岐年代の
再評価

  • 化石の校正点51点(今までの倍近く

  • 多くの科の分岐年代を約1〜3千万年より古いと推定

  • シダ植物は被子植物の「影」で進化したわけではない?

https://fernphy.github.io/

  • データのダウンロード

  • 系統樹、データの探索

R パッケージ ftolr

https://github.com/fernphy/ftolr

  • 直接Rに系統樹やアラインメントを読み込む

  • 外群の有無などのオプション

library(ftolr)
ft_tree(drop_og = TRUE)

Phylogenetic tree with 5582 tips and 5581 internal nodes.

Tip labels:
  Acrostichum_danaeifolium, Acrostichum_speciosum, Acrostichum_aureum, Ceratopteris_richardii, Ceratopteris_cornuta, Ceratopteris_shingii, ...
Node labels:
  100/100, 100/100, 100, 100/100, 100, 100/100, ...

Rooted; includes branch lengths.

まとめ

自動化とカスタマイズのバランスを取れた「ちょうど良い」アプローチ

  • GenBankデータを自動的にダウンロードし、系統樹にする

  • シダ植物専用の分類システムを導入

  • 他の研究者が簡単に使える

  • 他の生物でも同様にできる?

今後の予定・目的

  • FTOLを完成させる

    • 植物標本庫に収まっている標本のゲノムスキミング
  • そのうち、ファイロゲノミクスに切り替える

謝辞

  • 日本学術振興会

  • Smithsonian National Museum of Natural History Peter Buck Fellowship

  • 東京大学大学院新領域創成科学研究科先端生命科学専攻岩崎研のメンバー

  • A.E. White

  • S. Fawcett

  • M. Hassler

References

Antonelli, A., H. Hettling, F. L. Condamine, K. Vos, R. H. Nilsson, M. J. Sanderson, H. Sauquet, R. Scharn, D. Silvestro, M. Töpel, C. D. Bacon, B. Oxelman, and R. A. Vos. 2016. Toward a self-updating platform for estimating rates of speciation and migration, ages, and relationships of taxa. Systematic Biology 66:152–166.
Camacho, C., G. Coulouris, V. Avagyan, N. Ma, J. Papadopoulos, K. Bealer, and T. Madden. 2009. BLAST+: architecture and applications. BMC Bioinformatics 10:421.
Gauthier, J., A. T. Vincent, S. J. Charette, and N. Derome. 2019. A brief history of bioinformatics. Briefings in Bioinformatics 20:1981–1996.
Hassler, M. 2022. World Ferns. Synonymic Checklist and Distribution of Ferns and Lycophytes of the World. www.worldplants.de/ferns/.
Hinchliff, C. E., S. A. Smith, J. F. Allman, J. G. Burleigh, R. Chaudhary, L. M. Coghill, K. a. Crandall, J. Deng, B. T. Drew, R. Gazis, K. Gude, D. S. Hibbett, L. a. Katz, H. D. Laughinghouse, E. J. McTavish, P. E. Midford, C. L. Owen, R. H. Ree, J. a. Rees, D. E. Soltis, T. Williams, and K. a. Cranston. 2015. Synthesis of phylogeny and taxonomy into a comprehensive tree of life. Proceedings of the National Academy of Sciences:201423041.
Katoh, K., K. Misawa, K. Kuma, and T. Miyata. 2002. MAFFT: A novel method for rapid multiple sequence alignment based on fast Fourier transform. Nucleic Acids Research 30:3059–3066.
Nguyen, L.-T., H. A. Schmidt, A. von Haeseler, and B. Q. Minh. 2015. IQ-TREE: A fast and effective stochastic algorithm for estimating maximum-likelihood phylogenies. Molecular Biology and Evolution 32:268–274.
Portik, D. M., and J. J. Wiens. 2020. SuperCRUNCH: A bioinformatics toolkit for creating and manipulating supermatrices and other large phylogenetic datasets. Methods in Ecology and Evolution 11:763–772.
Smith, S. A., and B. C. O’Meara. 2012. treePL: divergence time estimation using penalized likelihood for large phylogenies. Bioinformatics 28:2689–2690.
Smith, S. A., and J. F. Walker. 2019. PyPHLAWD: A python tool for phylogenetic dataset construction. Methods in Ecology and Evolution 10:104–108.
Testo, W., and M. Sundue. 2016. A 4000-species dataset provides new insight into the evolution of ferns. Molecular Phylogenetics and Evolution 105:200–211.